首页> 外文OA文献 >Zipporah: a Fast and Scalable Data Cleaning System for Noisy Web-Crawled Parallel Corpora
【2h】

Zipporah: a Fast and Scalable Data Cleaning System for Noisy Web-Crawled Parallel Corpora

机译:Zipporah:一种快速,可扩展的数据清理系统,适用于嘈杂的Web爬行并行语料库

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We introduce Zipporah, a fast and scalable data cleaning system. We propose a novel type of bag-of-words translation feature, and train logistic regression models to classify good data and synthetic noisy data in the proposed feature space. The trained model is used to score parallel sentences in the data pool for selection. As shown in experiments, Zipporah selects a high-quality parallel corpus from a large, mixed quality data pool. In particular, for one noisy dataset, Zipporah achieves a 2.1 BLEU score improvement with using 1/5 of the data over using the entire corpus.
机译:我们推出Zipporah,这是一种快速且可扩展的数据清理系统。我们提出了一种新型的词袋翻译特征,并训练了逻辑回归模型以在提出的特征空间中对良好数据和合成噪声数据进行分类。训练后的模型用于对数据库中的平行句子评分以供选择。如实验所示,Zipporah从大型的混合质量数据池中选择一个高质量的并行语料库。特别是,对于一个嘈杂的数据集,Zipporah通过使用整个数据集的1/5数据,实现2.1 BLEU评分的提高。

著录项

  • 作者

    Xu, Hainan; Koehn, Philipp;

  • 作者单位
  • 年度 2017
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号